#Dan Roberts
OpenAI研究員Dan Roberts:AI主流認知將被打破,未來某個時點強化學習將完全主導整個訓練過程
Z Highlights我們發現,當模型在測試階段花更多時間思考時,其推理表現會顯著提升,這打破了業界普遍依賴預訓練算力的傳統認知。如果我們向1907年的愛因斯坦提出一個關於廣義相對論的問題,他需要8年才能回答;而 AI 的能力若按每7個月翻倍來推算,或許只需 9 年就能實現這樣的科學發現。我們正在將強化學習從點綴配角變成主角,不是在預訓練的大蛋糕上加櫻桃,而是用超大號的RL櫻桃砸向整個蛋糕本身。Dan Roberts是OpenAI的研究員,前紅杉資本成員,致力於推動AI的推理能力演化,推動從預訓練轉向以強化學習為核心的新範式。本文為Dan在AI Ascent峰會的公開演講精要,由Sequoia Capital頻道整理發布。圖片來源:Sequoia CapitalAI 推理能力的飛躍:從訓練期走向測試期的“思考”主持人:Dan Roberts曾是Sequoia Capital的團隊成員,在過去兩年半到三年之間,他持續在幫助我們理解“reasoning”這件事。我有大約一年半的時間是跟他面對面共事,從他身上獲益良多。所以我特別期待,他能將這些見解傳遞給更廣泛的群體。我想先分享一個去年的回憶片段,那是在AI Ascent峰會上。當時他即將從Sequoia Capital離職,加入 OpenAI,不過這事當時還未公開。當時Alfred和Sam正在台上發言,Alfred突然順嘴一提:“對了,順便說一下,Dan要去OpenAI啦。”我當時剛好看著Dan的表情……呃,確實相當難堪。但總之很高興你已經順利度過了那個階段,並願意來和我們分享這背後的原因。Dan Roberts:謝謝,其實你剛才講的正是我原本想用來開場的內容。那麼我直接切入正題吧。正如你們許多人知道的,去年九月我們在OpenAI發佈了一個名為“o1”的模型。接下來我引用一張來自我們部落格文章的圖表,讓我直接進入主題。圖片來源:Sequoia Capital這張圖展示的是機器學習模型的性能表現。縱軸代表某項數學推理基準測試的得分,而橫軸才是關鍵,顯示的是訓練所需的計算量。左邊這張圖說明,模型性能會隨著訓練計算量的增加而提升,這一點做AI訓練的人都很熟悉。但真正令人興奮的是右側這張圖:它顯示模型在測試階段計算量提升時,性能也隨之增強。我們教會它推理,而它也確實會花時間“思考”;而且思考時間越長,表現就越好。這太酷了,我們甚至把這句話印在T恤上。因為這不僅意味著訓練時的進步,現在連測試時的“Compute Use”也成了性能提升的新維度。那麼這意味著什麼?我們擁有了一個真正能推理的模型。來做個思維實驗:我們最近發佈了一個更強大的推理模型:o3版本。由於我本人學的是物理,因此我們用物理問題來測試它,比如quantum electrodynamics(量子電動力學),而且它還能進行可視化。我們在紙上寫了一個問題,你可能見過類似演示,它會開始“思考”,可以反覆自我檢驗、不斷聚焦細節。它思考了一會兒,然後開始作答,並最終給出了正確答案。整個過程持續大約一分鐘。順便一提,我在部落格文章發佈前被要求覆核這個結果,我花了整整三小時。雖然這項計算可以在四本教材中找到,但我仍得逐步推導每一步,確保每個負號都沒出錯,並確認它算得沒錯。所以我們能做什麼?我們可以用一分鐘時間完成非常複雜的計算,這已經足夠令人驚嘆。但問題是,我們要把這種能力帶向那裡?讓我們做一個更進一步的思想實驗。誰最擅長思想實驗?當然是Albert Einstein。那麼我們就以他為主題吧。假設我們回到1907年,那時Einstein還未正式開始廣義相對論的研究。我們給他出一道終極期末考題:關於廣義相對論。順便說一句,這個場景其實是GPT-4.5編造的,但我可以確認這其實是個非常合理的提問方向。當然我們不會真去問Einstein本人,而是會建構一個‘Einstein v1907超級高配版’,確保它擁有最強的推理能力和最充分的計算資源,來幫我們回答這個問題。重新定義範式:強化學習才是未來的“主角”那我們會得到什麼?愛因斯坦是個非常典型的視覺型思考者。他經常通過想像電梯中的自由落體等情境來推導物理原理。學習廣義相對論(GR)時,你會接觸到這類概念,比如橡皮膜上滾動小球的比喻模型,用來形象化引力和時空彎曲的關係。當然,他有時也會分心,比如會被量子力學的問題吸引注意力。我們的模型也會分心。圖像開始變得像個黑洞。我也搞不清為什麼它老喜歡把自己投射進這些場景。但這正是我希望用蟲洞來呈現的黑洞效應。最終的結果是:GPT-4.5沒能答出來,只有o3版本答對了。我在OpenAI的工作其實不是從事AI研究,而是專注於驗證物理計算。但是重點在於:這個模型確實能得出正確答案。換個角度看,如果這個問題是交給愛因斯坦本人來解,他當然也能算出結果,只不過他需要花上八年的時間,正如他歷史上花了八年才完成廣義相對論一樣。我的意思是,愛因斯坦會像歷史上那樣,在八年後提出廣義相對論,也就能回答這個問題。而我們的模型,只需思考一分鐘,就已經能復現教科書等級的複雜計算,甚至包括擾動修正項。但我們的目標遠不止複製已有知識。我們希望這些模型能真正推動人類知識的邊界,助力科學走向前沿突破。說回上面那張圖。左側顯示模型的性能隨著訓練時長的增加而提升。而要實現這種提升,關鍵在於一個核心手段:強化學習(Reinforcement Learning, RL)。我們所要做的,是把訓練規模推到極致。舉個例子,一年前我們發佈的 GPT-4.0模型,僅使用了預訓練算力;但從01版本開始,我們開始引入測試階段的算力,也就是RL算力。雖然這張圖是示意性的,但趨勢是清晰的。到了03版本,所用的RL算力可能更大。我們預計,未來某個時點,RL將完全主導整個訓練過程。這其實是一個反主流的觀點,但我們就是要強調這種範式的轉變。熟悉AI研究的人可能認得這張圖,它出自多年前的一份幻燈片,時間大概是2019年。圖片來源:Sequoia Capital那張圖雖然複雜,但我們現在已經可以用模型來幫我們總結出它的核心思路:在傳統認知中,預訓練是整個“大蛋糕”,而強化學習只是頂上的一顆小櫻桃。這兩種配色雖然巧合,卻恰好貼切。但我們要做的,是徹底顛覆這個結構,不是在蛋糕上點綴櫻桃,而是直接用一顆巨型的強化學習櫻桃砸向整個蛋糕。那我們具體打算怎麼做?很遺憾,這部分暫時不能透露。我們提交的幻燈片基本都被公關團隊刪掉了,甚至還有人擔心連“這一頁被刪除”這樣的備註頁也要被刪。還好,和我們對接的Brianna還算講理。實際上,我們的計畫已經非常明確:全面擴展算力規模。這意味著我們將籌集大約5000億美元,在德克薩斯州阿比林購買土地、建設設施、安裝計算裝置。我們也將再次與曾經合作過的工程團隊協同推進。我們的目標是訓練出最強的模型,並通過它創造大規模收益,再將這些收入投入到新一輪的設施建設和裝置擴容中,持續加碼。而與此同時,我們也在探索所謂的規模科學(scaling science)這正是我目前在OpenAI的核心工作內容。規模科學的終點:通向Einstein級 AI 的九年倒計時圖片來源:Sequoia Capital這張圖表來自我們關於 GPT-4的部落格文章。雖然那是在我加入OpenAI之前,但左下角的這個點表示GPT-4在訓練結束時的最終損失值。沿途的其他點則代表中間的實驗結果,而圖表用的是對數坐標軸,因此那些點的實際規模其實遠比視覺上看起來更小。虛線部分代表的是模型預期表現的預測線。他們精準地命中了這條預測。換句話說,在開始訓練這個前所未有的大模型之前,他們就已經精準地預知了它的最終效果。但隨著測試階段算力和強化學習訓練等新方法的加入,原本的認知框架也必須被打破。我們要重新定義“規模化計算”真正的意義。這就是為什麼我們需要規模科學:因為我們正在追求的,就是規模科學本身。正如播客主持人Dwares Patel指出的那樣:今天的模型看起來就像“白痴學者”,它們具備強大的能力,卻並沒有真正“發現”廣義相對論。也許癥結出在我們的問題設計上。我們總是在問模型錯誤的問題,而在科研中,提問的方式往往比求解過程本身更重要。我們需要學會找到問題的真正核心。另一個可能的原因是:我們過度訓練模型去解那些標準化的競賽數學題,結果導致它們在不同知識領域的能力發展極不均衡。不管是那種原因,現階段的模型成果都可能未達預期。但關鍵是:我們仍在不斷擴大規模,而這項工作一旦繼續推進下去,必將帶來令人驚嘆的突破。圖片來源:Sequoia Capital最後談談我對未來的看法。去年我曾參加AI巔峰會(AI Summit),希望今年還能再去。當時Constantine展示過這張圖表的標準坐標版本,裡面展示了一條趨勢曲線:AI Agent能處理的任務時長,正以每7個月翻倍的速度增長。如果這個趨勢持續下去,現在能處理1小時任務的模型,到明年可能就能處理2到3小時。當然我們都知道,AI領域的預測總是難以精確,但如果我們按照這條曲線外推,考慮愛因斯坦當年花了 8 年構思廣義相對論,那麼我們大約還需要16個“能力翻倍周期”。也就是說,9年之後,我們或許就能擁有一個可以自主發現廣義相對論的AI模型。謝謝大家! (Z Potentials)